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上 节 课 我 们 主要 介绍 了 Adaptive Boosting。AdaBoost 演 算法 通过 调整 每 笔 资料 的 权 
重 ,， 得 到 不 同 的 hypotheses， 然 后 将 不 同 的 hypothesis 乘 以 不 同 的 系数 a 进行 线性 组 
合 。 这 种 演算 法 的 优点 是 ， 即 使 底层 的 演算 法 g 不 是 特别 好 (只 要 比 乱 选 好 点 ) ， 经 过 
多 次 迭代 后 算法 模型 会 越 来 越 好 ， 起 到 了 boost 提 升 的 效果 。 本 节 课 将 在 此 基础 上 介绍 
一 种 新 的 aggregation 算 法 : 决策 树 (Decision Tree) 。 


Decision Tree Hypothesis 


从 第 7 节 课 开始 ， 我 们 就 一 直 在 介绍 aggregation model。aggregation 的 核心 就 是 将 许 
多 可 供 选 择 使 用 的 比较 好 的 hypothesis 融 合 起 来 ， 利 用 集体 的 智慧 组 合成 G， 使 其 得 到 
更 好 的 机 器 学 习 预 测 模型 。 下 面 ， 我 们 先 来 看 看 已 经 介绍 过 的 aggregation type 有 哪 


些 。 





aggregation type blending learning 
uniform | voting/averaging | Bagging 
non-uniform || linear | AdaBoost 
conditional stacking Decision Tree 


aggregation type 有 三 种 : uniform，non-uniform，conditional。 它 有 两 种 情况 ， 一 种 
是 所 有 的 g 是 已 知 的 ， 即 blending。 对 应 的 三 种 类 型 分 别 是 voting/averaging，linear 和 
stacking。 另 外 一 种 情况 是 所 有 g 未 知 ， 只 能 通过 手 上 的 资料 重 构 g， 即 learning。 其 中 
uniform 和 non-uniform 分 别 对 应 的 是 Bagging 和 AdaBoost 算 法 ， 而 conditional 对 应 的 就 
是 我 们 本 节 课 将 要 介绍 的 Decision Tree 算法 。 


决策 树 (Decision Tree) 模型 是 一 种 传统 的 算法 ， 它 的 处 理 方式 与 人 类 思维 十 分 相 
似 。 例 如 下 面 这 个 例子 ， 对 下 班 时 间 、 约 会 情况 、 提 交 截 止 时 间 这 些 条 件 进行 判断 ， 
从 而 决定 是 否 要 进行 在 线 课 程 测试 。 如 下 图 所 示 ， 整 个 流程 类 似 一 个 树 状 结构 。 





图 中 每 个 条 件 和 选择 都 决定 了 最 终 的 结果 ，Y or N。 蓝 色 的 圆圈 表示 树 的 叶子 ， 即 最 
终 的 决定 。 


把 这 种 树 状 结构 对 应 到 一 个 hypothesis G(x) 中 ，G(x) 的 表达 式 .为 : 


T 
G(x) = >》 g(x) - g(x) 
t=1 
G(x) 由 许多 gi (z) 组 成 ， 即 aggregation 的 做 法 。 每 个 9i (x ) 就 代表 上 图 中 的 蓝 色 圆圈 
( 树 的 叶子 ) 。 这 里 的 g% (z) 是 常数 ， 因 为 是 处 理 简 单 的 classification 问 题 。 我 们 把 这 
些 gi (x ) 称 为 base hypothesis. q (Z) 表 示 每 个 of (x) RLAR, Ce FEE 
头 的 部 分 。 不 同 的 gi (z) 对 应 于 不 同 的 gg (z)， 即 从 树 的 根部 到 顶端 叶子 的 路 径 不 同 。 


了 整个 G(x) 的 形式 ， 就 像 一 棵 树 一 样 ， 从 根部 到 顶端 所 有 的 叶子 都 安全 映射 到 上 述 公 
NEST. 


可 
G(x) = >》 9t(x) - gr(x) 
p 
e base hypothesis g;(x): 
leaf at end of path +, 
a constant here 
e condition q;(x): 
[is x on path 1?] 
e usually with simple 
internal nodes | 


决策 树 实际 上 就 是 在 模仿 人 类 做 决策 的 过 程 。 一 直 以 来 ， 决 策 树 的 应 用 十 分 广泛 而 且 


分 类 预测 效果 都 很 不 错 ， 而 它 在 数学 上 的 理论 完备 性 不 充分 ， 倒 也 不 必 人 在 意 。 


如 果 从 另外 一 个 方面 来 看 决策 树 的 形式 ， 不 同 于 上 述 G(x) 的 公式 ， 我 们 可 以 利用 条 件 
分 支 的 思想 ， 将 整体 G(x) 分 成 若干 个 G。 (x)， 也 就 是 把 整个 大 树 分 成 若干 个 小 树 ， 如 
下 所 示 : 


C 
G(x) = X blz) = 可 .Ge(z) 
c=1 
上 式 中 ，G(x) 表 示 完 整 的 大 树 ， 即 full-tree hypothesis，b(x) 表 示 每 个 分 支 条 件 ， 即 
branching criteria, G, (xz) 表示 第 c 个 分 支 下 的 子 树 ， 即 sub-tree。 这 种 结构 被 称 为 递 
归 型 的 数据 结构 ， 即 将 大 树 分 割 成 不 同 的 小 树 ， 再 将 小 树 继 续 分 割 成 更 小 的 子 树 。 所 
以 ， 决 策 树 可 以 分 为 两 部 分 : root 和 sub-trees。 


Recursive View 





C 
G(x) = D> [b(x) = c] - G(x) 


c=1 
e G(x): full-tree hypothesis 
e b(x): branching criteria 
e G(x): sub-tree hypothesis at 


the c-th branch 
在 详细 推导 决策 树 算 法 之 前 ， 我 们 先 来 看 一 看 它 的 优点 和 缺点 。 首 先 ，decision tree 


的 优点 有 : 


。 模型 直观 ， 便 于 理解 ， 应 用 广泛 
。 算法 简单 ， 容 易 实现 
。 训练 和 预测 时 ， 效 率 较 高 


。 缺少 足够 的 理论 支持 
。 如 何 选 择 合适 的 树 结构 对 初学 者 来 说 比较 困惑 
。 决策 树 代表 性 的 演算 法 比较 少 





e human-explainable: widely e heuristic: 
used in business/medical mostly little theoretical 
data analysis explanations 

e simple: e heuristics: 


‘heuristics selection’ 
confusing to beginners 

e arguably no single 
representative algorithm 


even freshmen can 
implement one :-) 

e efficient in prediction and 
training 


Decision Tree Algorithm 


我 们 可 以 用 递归 形式 将 decision tree 表 示 出 来 ， 它 的 基本 的 算法 可 以 写成 : 


G(x) = > [ooo = o] Ge(x) 


这 个 Basic Decision Tree Algorithm 的 流程 可 以 分 成 四 个 部 分 ， 首 先 学 习 设 定 划分 不 同 
分 支 的 标准 和 条 件 是 什么 ; 接着 将 整体 数据 集 D 根 据 分 支 个 数 C 和 条 件 ， 划 为 不 同 分 支 
下 的 子 集 Dc; 然后 对 每 个 分 支 下 的 Dc 进行 训练 ， 得 到 相应 的 机 器 学 习 模型 Gc;， 最 后 
将 所 有 分 支 下 的 Gc 合 并 到 一 起 ， 组 成 大 和 矩 G(X)。 但 值得 注意 的 是 ， 这 种 递归 的 形式 需 
要 终止 条 件 ， 人 否则 程序 将 一 直 进 行 下 去 。 当 满足 递归 的 终止 条 件 之 后 ， 将 会 返回 基本 
的 hypothesis g(x). 


function DecisionTree (data D = {(xn,yn)}A 1) 
if termination criteria met 
return base hypothesis g;(x) 


else ah 
© learn branching criteria b(x) 


© split D to C parts De = {(Xn, Yn): b(xn) = C} 
© build sub-tree Gc + Decision Tree( 了 -) 


© return G(x) = > [b(x) = c] Go(x) 
c=1 


所 以 ， 决 策 树 的 基本 演算 法 包含 了 四 个 选择 : 


。 分 支 个 数 (number of branches) 


。 分 支 条 件 (branching criteria) 
。 终止 条 件 (termination criteria) 


。 基本 算法 (base hypothesis) 


下 面 我 们 来 介绍 一 种 常用 的 决策 树 模型 算法 ， 叫 做 Classification and Regression 
Tree(C&RT)。C&RT 算 法 有 两 个 简单 的 设 定 ， 首 先 ， 分 支 的 个 数 C=2， 即 二 叉 树 
(binary tree) 的 数据 结构 ; 然后 ， 每 个 分 支 最 后 的 gi (x) ( 数 的 叶子 ) 是 一 个 常数 。 
按照 最 小 化 jj, 的 目标 ， 对 于 binary/multiclass classification(0/1 erron) 问 题 ， 看 正 类 
和 负 类 哪个 更 多 ，gi (x ) 取 所 占 比例 最 多 的 那 一 类 wy, ;对 于 regression(squared error) 
问题 ，gi (x) 则 取 所 有 wy 的 平均 值 。 


two simple choices 


e C=2 (binary tree) 

e g(x) = Ein-optimal constant 
e binary/multiclass classification (0/1 error): majority of {yn} 
e regression (squared error): average of {yn} 


对 于 决策 树 的 基本 演算 法 流程 ，C&RT 还 有 一 些 简单 的 设 定 。 首 先 ，C&RT 分 支 个 数 
C=2， 一 般 采 用 上 节 课 介绍 过 的 decision stump 的 方法 进行 数据 切割 。 也 就 是 每 次 在 一 
个 维度 上 ， 只 对 一 个 特征 feature 将 数据 一 分 为 二 ， 左 子 树 和 右 子 树 ， 分 别 代 表 不 同 的 
类 别 。 然 而 ， 怎 么 切割 才能 让 数据 划分 得 最 好 呢 (error 最 小 ) ? C&RT 中 使 用 纯净 度 
purifying 这 个 概念 来 选择 最 好 的 decision stump。purifying 的 核心 思想 就 是 每 次 切割 都 
尽 可 能 让 左 子 树 和 右 子 树 中 同类 样本 占 得 比例 最 大 或 者 y, 都 很 接近 (regression) , 
即 错误 率 最 小 。 比 如 说 classifiacation 问 题 中 ， 如 果 左 子 树 全 是 正 样 本 ， 右 子 树 全 是 负 
样本 ， 那 么 它 的 纯净 度 就 很 大 ， 说 明 该 分 支 效 果 很 好 。 


more simple choices 


e simple internal node for C = 2: {1,2}-output decision stump 
e ‘easier’ sub-tree: branch by purifying 


2 
b(x) = argmin >》 |De with h| - impurity(D, with h) 
decision stumps h(x) c=1 
根据 C&RT 中 purifying 的 思想 ， 我 们 得 到 选择 合适 的 分 支 条 件 b(x) 的 表达 式 如 上 所 示 。 


最 好 的 decision stump 重 点 包含 两 个 方面 : 一 个 是 刚刚 介绍 的 分 支 纯净 度 purifying,， 


purifying 越 大 越 好 ， 而 这 里 使 用 purifying 相 反 的 概念 impurity， 则 impurity 越 小 越 好 ; 另 
外 一 个 是 左右 分 支 纯净 度 所 占 的 权重 ， 权 重大 小 由 该 分 支 的 数据 量 决定 ， 分 支 包含 的 
样本 个 数 越 多 ， 则 所 占 权 重 越 大 ， 分 支 包 含 的 样本 个 数 越 少 ， 则 所 占 权 重 越 小 。 上 了 式 
中 的 |D。 with hh| 代 表 了 分 支 c 所 占 的 权重 。 这 里 b(x) 类 似 于 error function (这 也 是 为 
什么 使 用 impurity 代 蔡 purifying 的 原因 ) ， 选 择 最 好 的 decision stump， 让 所 有 分 支 的 
不 纯度 最 小 化 ， 使 b(x) 越 小 越 好 。 
不 纯度 Impurity 如 何 用 函数 的 形式 量化 ? 一 种 简单 的 方法 就 是 类 比 于 Bj,， 看 预测 值 与 
真实 值 的 误差 是 多 少 。 对 于 regression 问 题 ， 它 的 impurity 可 表示 为 : 
to = 
impurity(D) = W > (on — y) 


n=1 
其 中 ，Yy 表 示 对 应 分 支 下 所 有 wn 的 均值 。 


对 应 classification 问 题 ， 它 的 impurity 可 表示 为 : 


1 N 
impurity(D) = = S lyn #9") 


n=1 


其 中 ， 信 表示 对 应 分 支 下 所 占 比 例 最 大 的 那 一 类 。 


by En of optimal 


e regression error: 
1 N 
. . a = 一 2 
impurity(D) = nd Vo y) 


with y = average of {yn} 
e classification error: 


N 
impurity(D) = $ > Dn #Y'I 
n=1 


with y* = majority of {yn} 


以 上 这 些 impurity 是 基于 原来 的 regression error 和 classification error 直 接 推导 的 。 进 
一 步 来 看 classification 的 impurity functions， 如 果 某 分 支 条 件 下 ， 让 其 中 一 个 分 支 纯度 
最 大 ， 那 么 就 选择 对 应 的 decision stump， 即 得 到 的 classification error 为 : 


1 — mazı<k<K 
其 中 ，K 为 分 支 个 数 。 


上 面 这 个 式 子 只 考虑 纯度 最 大 的 那个 分 支 ， 更 好 的 做 法 是 将 所 有 分 支 的 纯度 都 考虑 并 
计算 在 内 ， 用 基尼 指数 (Gini index) 表示 : 


K N = 
1 $5 Saale =H 


k=1 N 


Gini index 的 优点 是 将 所 有 的 class 在 数据 集中 的 分 布 状况 和 所 占 比 例 全 都 考虑 了 ， 这 
样 让 decision stump 的 选择 更 加 准确 。 


for classification 


e Gini index: 
K N = 
p ia [yn = k] 
本 到 on=1 Vn t 
2 


—all k considered together 
e Classification error: 


N — 
| _ ma De a= 
1<k<K N 


—optimal k = y* only 


对 于 决策 树 C&RT 算 法 ， 通 常 来 说 ， 上 面 介 绍 的 各 种 impurity functions, Gini index 
更 适合 求解 classification 问 题 ， 而 regression error 更 适合 求解 regression 问 题 。 


C&RT 算 法 迭代 终止 条 件 有 两 种 情况 ， 第 一 种 情况 是 当前 各 个 分 支 下 包含 的 所 有 样本 

yn 都 是 同类 的 ， 即 不 纯度 impurity 为 0， 表 示 该 分 支 已 经 达到 了 最 佳 分 类 程度 。 第 二 种 
情况 是 该 特征 下 所 有 的 zx 相同， 无 法 对 其 进行 区 分 ， 表 示 没 有 decision stumps. E 
这 两 种 情况 ，C&RT 算 法 就 会 停止 迭代 。 


‘forced’ to terminate when 


e all yn the same: impurity = 0 => gi(X) = Yn 
e all x, the same: no decision stumps 


所 以 ，C&RT 算 法 遇 到 和 迭代 终止 条 件 后 就 成 为 完全 长 成 树 (fully-grown tree) 。 它 每 次 
分 支 为 二 ， 是 二 叉 树 结构 ， 采 用 purify 来 选择 最 佳 的 decision stump 来 划分 ， 最 终 得 到 
的 叶子 (gi (x)) 是 常数 。 


Decision Tree Heuristics in C&RT 


现在 我 们 已 经 知道 了 C&RT 算 法 的 基本 流程 : 


function DecisionTree(data D = {(Xn, yn)}*_,) 
if cannot branch anymore 
return g;(x) = Ej,-optimal constant 


else Aids 
© learn branching criteria 


2 
b(x)= argmin >》 [De with h| - impurity(D¢ with h) 
decision stumps h(x) 64 
© split D to 2 parts De = {(Xn, Yn): D(Xn) = C} 
© build sub-tree Gc + DecisionTree(D.) 


© return G(x) = > [b(x) = c] G(x) 


c=1 


可 以 看 到 C&RT 算 法 在 处 理 binary classification 和 regression 问 题 时 非常 简单 实用 ， 而 
且 ， 处 理 muti-class classification 问 题 也 十 分 容易 。 


考虑 这 样 一 个 问题 ， 有 N 个 样本 ， 如 果 我 们 每 次 只 取 一 个 样本 点 作为 分 支 ， 那 么 在 经 
过 N-1 次 分 支 之 后 ， 所 有 的 样本 点 都 能 完全 分 类 正确 。 最 终 每 片 叶 子 上 只 有 一 个 样 
本 ， 有 N 片 叶子 ， 即 必然 能 保证 为 ”= 0。 这 样 看 似 是 完 美的 分 割 ， 但 是 不 可 避免 地 
造成 VC Dimension 无 限 大 ， 造 成 模型 复杂 度 增加 ， 从 而 出 现 过 拟 合 现象 。 为 了 避免 
overfit， 我 们 需要 在 C&RT 算 法 中 引入 正则 化 ， 来 控制 整个 模型 的 复杂 度 . 


考虑 到 避免 模型 过 于 复杂 的 方法 是 减少 叶子 (gi (xX)) 的 数量 ， 那 么 可 以 令 regularizer 
就 为 决策 树 中 叶子 的 总 数 ， 记 为 0Q2(G)。 正 则 化 的 目的 是 尽 可 能 减少 Q(G ) 的 值 。 这 
样 ，regularized decision tree 的 形式 就 可 以 表示 成 : 

argmin ail possible G) Ein (G) =P AN(G) 


我 们 把 这 种 regularized decision tree 称 为 pruned decision tree, pruned FESH 
思 ， 通 过 regularization 来 修 齐 决策 树 ， 去 掉 多 余 的 叶子 ， 更 简洁 化 ， 从 而 达到 避免 过 


拟 合 的 效果 。 


那么 如 何 确定 修剪 多 少 叶 子 ， 修 前 哪 些 叶 子 呢 ? 假设 由 C&RT 算 法 得 到 一 棵 完全 长 成 
树 (fully-grown tree) ， 总 共 10 片 叶子 。 首 先 分 别 减 去 其 中 一 片 叶子 ， 剩 下 9 片 ， 将 这 
10 种 情况 比较 ， 取 环 im 最 小 的 那个 模型 ;然后 再 从 9 片 叶子 的 模型 中 分 别 减 去 一 片 ， 剩 
下 8 片 ， 将 这 9 种 情况 比较 ， 取 bin 最 小 的 那个 模型 。 以 此 类 推 ， 继 续 修 建 叶 子 。 这 
样 ， 最 终 得 到 包含 不 同 叶 子 的 几 种 模型 ， 将 这 几 个 使 用 regularized decision tree 的 
error function 来 进行 选择 ， 确 定 包含 几 片 叶子 的 模型 误差 最 小 ， 就 选择 该 模型 。 另 
外 ， 参 数 入 可 以 通过 validation 来 确定 最 佳 值 。 


e need a regularizer, say, 0(G) = NumberOfLeaves(G) 
e want regularized decision tree: 
argmin Ei,(G) + AQ(G) 
all possible G 
—called pruned decision tree 


s cannot enumerate all possible G computationally: 
—often consider only 
e Gl) = fully-grown tree 
e GW = argmin, En(G) such that G is one-leaf removed from G4- 1) 


我 们 一 直 讨 论 决策 树 上 的 叶子 (features) 都 是 numerical features， 而 实际 应 用 中 ， 

决策 树 的 特征 值 可 能 不 是 数字 量 ， 而 是 类 别 (categorical features) 。 对 于 numerical 
features， 我 们 直接 使 用 decision stump 进 行 数值 切割 ;而 对 于 categorical features, 

我 们 仍然 可 以 使 用 decision subset， 对 不 同类 别 进行 “ 左 "和 "“ 右 "， 即 是 与 不 是 (0 和 1) 
的 划分 。numerical features 和 categorical features 的 具体 区 别 如 下 图 所 示 : 


categorical features 


major symptom: 
fever, pain, tired, sweaty 


branching for categorical 


decision subset 






numerical features 


blood pressure: 
130, 98, 115, 147, 120 









branching for numerical 


decision stump 
b(x) = [x < 6] +1 b(x) = [x € S] +1 


with 0 € R with S c {1,2,..., K} 


在 决策 树 中 预测 中 ， 还 会 遇 到 一 种 问题 ， 就 是 当 某 些 特征 缺失 的 时 候 ， 没 有 办 法 进行 
切割 和 分 支 选 择 。 一 种 常用 的 方法 就 是 surrogate branch， 即 寻找 与 该 特征 相似 的 替代 
feature。 如 何 确定 是 相似 的 feature 呢 ?做 法 是 在 决策 树 训练 的 时 候 ， 找 出 与 该 特征 相 
似 的 feature， 如 果 蔡 代 的 feature 与 原 feature 切 割 的 方式 和 结果 是 类 似 的 ， 那 么 就 表明 
二 者 是 相似 的 ， 就 把 该 蔡 代 的 feature 也 存储 下 来 。 当 预测 时 遇 到 原 feature 缺 失 的 情 
况 ， 就 用 替代 feature 进 行 分 支 判断 和 选择 。 


if weight missing during prediction: 
e what would human do? 
e go get weight 
e or, use threshold on height instead, because 
threshold on height = threshold on weight 


e surrogate branch: 


e maintain surrogate branch b;(x), bo(x), ... = best branch b(x) 
during training 

e allow missing feature for b(x) during prediction by using surrogate 
instead 


Decision Tree in Action 


最 后 我 们 来 举 个 例子 看 看 C&RT 算 法 究竟 是 如 何 进 行 计 算 的 。 例 如 下 图 二 维 平面 上 分 
布 着 许多 正 负 样本 ， 我 们 使 用 C&RT 算 法 来 对 其 进行 决策 树 的 分 类 。 


在 进行 第 四 步 切 割 之 后 ， 我 们 发 现 每 个 分 支 都 已 经 非常 纯 争 了 ， 没 有 办 法 继续 往 下 切 
剂 。 此 时 表明 已 经 满足 了 和 迭代 终止 条 件 ， 这 时 候 就 可 以 回 传 base hypothesis， 构 成 
sub tree， 然 后 每 个 sub tree 再 往 上 整合 形成 tree， 最 后 形成 我 们 需要 的 完全 决策 树 。 
如 果 将 边界 添加 上 去 ， 可 得 到 下 图 : 


得 到 C&RT 算 法 的 切割 方式 之 后 ， 我 们 与 AdaBoost-Stump 算 法 进行 比较 : 


C&RT AdaBoost-Stump 


我 们 之 前 就 介绍 过 ，AdaBoost-Stump 算 法 的 切割 线 是 横 跨 整个 平面 的 ;而 C&RT 算 法 
的 切割 线 是 基于 某 个 条 件 的 ， 所 以 一 般 不 会 横 跨 整个 平面 。 比 较 起 来 ， 昌 然 C&RT 和 

AdaBoost-Stump 都 采用 decision stump 方 式 进 行 切割 ， 但 是 二 者 在 细节 上 还 是 有 所 区 
别 。 


再 看 一 个 数据 集 分 布 比较 复杂 的 例子 ，C&RT 和 AdaBoost-Stump 的 切割 方式 对 比 效果 
如 下 图 所 示 : 





AdaBoost-Stump 


通常 来 说 ， 由 于 C&RT 是 基于 条 件 进 行 切割 的 ， 所 以 C&RTEAdaBoost-Stump 分 类 切 
割 更 有 效率 。 总 结 一 下 ，C&RT 决 策 树 有 以 下 特点 : 


e human-explainable 

e multiclass easily 

e categorical features easily 

e missing features easily 

e efficient non-linear training (and testing) 


—almost no other learning model share all such specialties, 
except for other decision trees 


总 结 : 


本 节 课 主要 介绍 了 Decision Tree。 首 先 将 decision tree hypothesis 对 应 到 不 同 分 支 下 
的 矩 %:(z)。 然 后 再 介绍 决策 树 算 法 是 如 何 通 过 递归 的 形式 建立 起 来 。 接 着 详细 研究 
了 决策 树 C&RT 算 法 对 应 的 数学 模型 和 算法 架构 流程 。 最 后 通过 一 个 实际 的 例子 来 演 
示 决 策 树 C&RT 算 法 是 如 何 一 步 一 步 进行 分 类 的 。 

注 明 : 

文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 


